广义线性模型,英文名为Generalized Linear Model,简称 GLM。
之前,涉及到两种的两种模型:
- 线性拟合模型,假设了$P(y|x;\theta)$是高斯分布
- 二分类问题,假设了$P(y|x;\theta)$满足伯努利分布
但以上两者知识一种更广泛的,被称为『指数分布族』(The Exponential Family)的特例。
指数分布族
可以被表示为以上形式的分布,都是指数分布族的某个特定分布,给定$a, b, T$,就可以定义一个概率分布的集合,以$\eta$为参数,就可以得到不同的概率分布。
在广义线性模型中,会假设$\eta=\theta^Tx$,也就是$\eta$和特征$x$线性相关。
伯努利分布
首先,我们给出$y=1$的概率:
于是:
比较我们上面的概率形式和指数分布族的标准形式,可以得到:
这里的$\phi$一般会被称为正则响应函数(_canonic response function_):
相对的,正则关联函数(_canonic link function_)则是$g^{-1}$。
高斯分布
这里,出于简洁考虑,假设$\sigma=1$,经过一系列化简后,可以表示成:
那么,
多项式分布
建模
在二项分布中,$y\in \lbrace 1, 2 \rbrace$
而多项式分布,$y \in \lbrace 1,\cdots, k \rbrace$
一般会被用来进行邮件分类或者进行病情分类等等
我们假设
也即,邮件属于$i$类的概率是$\phi_i$,是关于特征$x$的一个函数。
那么,可以用$k$个参数来建模多项式分布
其中,$1 \lbrace \cdots \rbrace$的含义为,检验$\cdots$是否为真命题,若为真命题,则取 1,否则取 0。
因为所有概率和为 1,所以最后一个参数
经过化简,也可以表示成:
故而
根据$\eta$可得:
又因为:
故而:
所以:
上述函数,被称为『softmax』函数,这个函数的作用经常用于进行归一化。
经过上述步骤,假设函数可以被写成如下形式:
回归
在经过上述推导,当我们有一堆训练集($(x^{(1)}, y^{(1)}), \cdots, (x^{(m)}, y^{(m)})$)用于训练的时候,则可以进行极大似然估计: